智能论文笔记

Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly

Spencer Whitehead , Suzanne Petryk , Vedaad Shakib , Joseph Gonzalez , Trevor Darrell , Anna Rohrbach , Marcus Rohrbach

分类：计算机视觉

2022-04-28

机器学习已经急剧提高，在多模式任务中缩小了人类的准确性差距，例如视觉问题答案（VQA）。但是，尽管人类在不确定的时候可以说“我不知道”（即避免回答问题），但这种能力在多模式研究中被大大忽略了，尽管此问题对VQA的使用很重要，而VQA实际上使用了VQA。设置。在这项工作中，我们为可靠的VQA提出了一个问题制定，我们更喜欢弃权，而不是提供错误的答案。我们首先为多种VQA模型提供了弃戒功能，并分析了它们的覆盖范围，回答的问题的一部分和风险，该部分的错误。为此，我们探索了几种弃权方法。我们发现，尽管最佳性能模型在VQA V2数据集上实现了超过71％的准确性，但通过直接使用模型的SoftMax得分介绍了弃权的选项，限制了它们的少于8％的问题，以达到错误的错误风险（即1％）。这促使我们利用多模式选择功能直接估计预测答案的正确性，我们显示的可以将覆盖率增加，例如，在1％风险下，2.4倍从6.8％到16.3％。尽管分析覆盖范围和风险很重要，但这些指标具有权衡，这使得比较VQA模型具有挑战性。为了解决这个问题，我们还建议对VQA的有效可靠性指标，与弃权相比，将不正确的答案的成本更大。 VQA的这种新问题制定，度量和分析为构建有效和可靠的VQA模型提供了基础，这些模型具有自我意识，并且只有当他们不知道答案时才戒除。

translated by 谷歌翻译

人口贩运是一个普遍的问题，尽管在全球范围内为与之作斗争，但仍坚持不懈。任何年龄，种族，种族，性别，性别认同，性取向，国籍，移民身份，文化背景，宗教，社会经济阶级和教育的个人都可以成为人口贩运的受害者。随着技术的进步和引入自动驾驶汽车（AVS），人口贩子将采用新的方式运输受害者，这可以加速有组织的人口贩运网络的增长，这可以使对执法人员更具挑战性的人口贩运的探测机构。这项研究的目的是为自动驾驶汽车开发基于创新的音频分析的人口贩运检测框架。这项研究的主要贡献是：（i）为AVS定义四个非平凡，可行和现实的人口贩运情景；（ii）创建一个与人口贩运有关的新的，全面的音频数据集，其中五个类别，即哭泣，尖叫，车门爆炸，汽车噪音和对话；（iii）开发一个与人口贩运有关的音频数据分类的深1D卷积神经网络（CNN）体系结构。我们还使用新的音频数据集进行了案例研究，并评估了深1-D CNN的音频分类性能。我们的分析表明，深1-D CNN可以将来自人口贩运受害者的声音与非人口贩运声音的准确性为95％，这证明了我们框架的功效。

translated by 谷歌翻译

边缘设备上有限且动态的资源激励我们部署优化的深神经网络，该网络可以调整其子网络以适应不同的资源约束。但是，现有作品通常通过在手工制作的采样空间中搜索不同的网络体系结构来构建子网络，这不仅可以导致低标准的性能，而且可能导致设备上的重新配置开销。在本文中，我们提出了一种新颖的培训算法，动态的实时稀疏子网（着装）。着装通过基于行的非结构化稀疏度从相同的骨干网络采样多个子网络，并与加权损失并联训练这些子网络。着装还利用包括参数重复使用和基于行的细粒抽样在内的策略，以进行有效的存储消耗和有效的机上适应。公共视觉数据集的广泛实验表明，与最先进的子网络相比，着装的准确性明显更高。

translated by 谷歌翻译

低功率边缘-AI功能对于支持元视野的设备扩展现实（XR）应用至关重要。在这项工作中，我们研究了两个代表性的XR工作负载：（i）手动检测和（ii）眼睛分割，用于硬件设计空间探索。对于这两种应用，我们都会训练深层神经网络，并分析量化和硬件特定瓶颈的影响。通过模拟，我们评估了CPU和两个收缩推理加速器实现。接下来，我们将这些硬件解决方案与先进的技术节点进行比较。评估了将最新的新兴非易失性记忆技术（STT/SOT/VGSOT MRAM）集成到XR-AI推论管道中的影响。我们发现，可以通过在7nm节点的设计中引入非挥发性记忆来实现手部检测（IPS = 40）和眼部分割（IPS = 6）的显着能源益处（IPS = 40）（IPS = 6）。（推断每秒）。此外，由于MRAM与传统的SRAM相比，由于MRAM的较小形式，我们可以大大减少面积（> = 30％）。

translated by 谷歌翻译